混合专家 MoE 快讯列表

快讯列表

关于混合专家 MoE 的快讯列表

时间	详情
2025-09-22 22:32	阿里巴巴发布 Qwen3-Next-80B-A3B 开源权重大模型（Apache 2.0）：262k 长上下文、MoE、Gated DeltaNet、支持多Token预测据 @DeepLearningAI 报道，阿里巴巴发布 Qwen3-Next-80B-A3B，提供 Base、Instruct、Thinking 三个版本，采用 Apache 2.0 开源权重许可，面向更快的长上下文推理，并支持最长 262,144 Token 输入与多Token预测；来源：DeepLearning.AI 在 X，2025-09-22，https://twitter.com/DeepLearningAI/status/1970254860416131146；The Batch 综述，https://hubs.la/Q03KsR8W0。该模型为 800 亿参数的混合专家架构，多数标准注意力层替换为 Gated DeltaNet，其余采用 gated attention，基于 Qwen3 数据集的 15 万亿 Token 子集训练，并使用 GSPO 进行微调；来源：DeepLearning.AI 在 X，2025-09-22，https://twitter.com/DeepLearningAI/status/1970254860416131146；The Batch 综述，https://hubs.la/Q03KsR8W0。交易角度看，核心可量化指标包括 262,144 Token 上下文窗口、多Token预测与 Apache 2.0 开源权重许可，这些参数决定了模型的可用性与性能边界；来源未提及任何加密货币集成或价格影响；来源：DeepLearning.AI 在 X，2025-09-22，https://twitter.com/DeepLearningAI/status/1970254860416131146；The Batch 综述，https://hubs.la/Q03KsR8W0。来源
2025-08-26 17:59	阿里巴巴发布 Wan 2.2 开放权重视频生成MoE：50亿参数文本/图像转视频模型可在消费级GPU运行，交易者需关注根据 @DeepLearningAI，阿里巴巴发布了 Wan 2.2，这是一套采用混合专家（MoE）架构的开放权重视频生成模型家族（来源：@DeepLearningAI，X，2025年8月26日）。其中包含一个可在消费级GPU运行的50亿参数文本/图像转视频模型（来源：@DeepLearningAI，X，2025年8月26日）。MoE设置包含两个专家，其中一个用于高噪声场景，另一位专家在所提供信息中未详细说明（来源：@DeepLearningAI，X，2025年8月26日）。对交易者而言，开放权重与消费级GPU可运行的特性构成可跟踪的AI基础设施主题数据点，因更易获取的视频AI工具可能影响去中心化算力与存储等加密生态的开发与链上使用，但不构成价格影响判断（基于同一来源关于开放权重与消费级GPU支持的信息：@DeepLearningAI，X，2025年8月26日）。来源

时间

详情

2025-09-22
22:32

阿里巴巴发布 Qwen3-Next-80B-A3B 开源权重大模型（Apache 2.0）：262k 长上下文、MoE、Gated DeltaNet、支持多Token预测

据 @DeepLearningAI 报道，阿里巴巴发布 Qwen3-Next-80B-A3B，提供 Base、Instruct、Thinking 三个版本，采用 Apache 2.0 开源权重许可，面向更快的长上下文推理，并支持最长 262,144 Token 输入与多Token预测；来源：DeepLearning.AI 在 X，2025-09-22，https://twitter.com/DeepLearningAI/status/1970254860416131146；The Batch 综述，https://hubs.la/Q03KsR8W0。该模型为 800 亿参数的混合专家架构，多数标准注意力层替换为 Gated DeltaNet，其余采用 gated attention，基于 Qwen3 数据集的 15 万亿 Token 子集训练，并使用 GSPO 进行微调；来源：DeepLearning.AI 在 X，2025-09-22，https://twitter.com/DeepLearningAI/status/1970254860416131146；The Batch 综述，https://hubs.la/Q03KsR8W0。交易角度看，核心可量化指标包括 262,144 Token 上下文窗口、多Token预测与 Apache 2.0 开源权重许可，这些参数决定了模型的可用性与性能边界；来源未提及任何加密货币集成或价格影响；来源：DeepLearning.AI 在 X，2025-09-22，https://twitter.com/DeepLearningAI/status/1970254860416131146；The Batch 综述，https://hubs.la/Q03KsR8W0。

来源

2025-08-26
17:59

阿里巴巴发布 Wan 2.2 开放权重视频生成MoE：50亿参数文本/图像转视频模型可在消费级GPU运行，交易者需关注

根据 @DeepLearningAI，阿里巴巴发布了 Wan 2.2，这是一套采用混合专家（MoE）架构的开放权重视频生成模型家族（来源：@DeepLearningAI，X，2025年8月26日）。其中包含一个可在消费级GPU运行的50亿参数文本/图像转视频模型（来源：@DeepLearningAI，X，2025年8月26日）。MoE设置包含两个专家，其中一个用于高噪声场景，另一位专家在所提供信息中未详细说明（来源：@DeepLearningAI，X，2025年8月26日）。对交易者而言，开放权重与消费级GPU可运行的特性构成可跟踪的AI基础设施主题数据点，因更易获取的视频AI工具可能影响去中心化算力与存储等加密生态的开发与链上使用，但不构成价格影响判断（基于同一来源关于开放权重与消费级GPU支持的信息：@DeepLearningAI，X，2025年8月26日）。

来源

关于 混合专家 MoE 的快讯列表

关于混合专家 MoE 的快讯列表